简短的答案评分(SAS)是对学习者编写的简短文本的任务。近年来,基于深度学习的方法显着改善了SAS模型的性能,但是如何在将此类模型应用于教育领域时,如何保证高质量的预测仍然是一个关键问题。为了确保高质量的预测,我们介绍了探索人类在循环框架中使用分级成本的第一个研究,同时通过允许SAS模型与人类分级器共享分级任务,以确保分级质量。具体而言,通过引入指示模型预测可靠性的置信度估计方法,可以通过仅利用对评分结果可靠性高的预测来保证评分质量,并对人类分级的可靠性低可靠性。在我们的实验中,我们使用多个置信度估计方法和多个SAS数据集研究了提出的框架的可行性。我们发现,我们的人类框架框架允许自动评分模型和人类分级器达到目标评分质量。
translated by 谷歌翻译